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摘 要 : [目的 /意义 ] 挂果 量 是 果树 栽培 管理 的 重要 指标 。 传 统 人 力 抽样 佑 测 果树 挂果 量 的 方法 不 仅 耗 时 费力 ， 
而 且 容 易 产 生 较 大 误差 。 本 研究 提出 一 种 用 于 边缘 计算 设备 的 轻 量 化 模型 ， 实 现 视 频 中 树 上 柑橘 挂果 量 的 自动 佑 


WM. [HE] 该 模型 采用 CSPDarkNet53+PAFPN 结构 作为 特征 提取 网 络 ， 实 现 更 快 的 推理 速度 和 更 低 的 模型 复杂 
度 ， 在 果实 跟踪 过 程 中 引入 Byte 算 法 改进 FairMOT 的 数据 关联 策略 ， 对 视频 中 的 柑橘 进行 预测 跟踪 ， 以 提升 挂果 
量 估 测 准确 性 。[ 结 果 和 讨论 ] 在 边缘 计算 设备 NVIDIA Jetson AGX 上 进行 模型 性 能 测试 结果 表明 ， 本 研究 所 建 模 


型 对 柑橘 挂果 量 的 平均 估 测 精度 (Average Estimating Precision, AEP) 和 处 理 速 度 (Frames Per Second, FPS) 分 
别 达到 91.61% 和 14.76， 模 型 佑 测 值 与 人 工 测 得 真实 值 的 决定 系数 记 为 0.9858， 均 方 根 误差 (Root Mean Square Er- 
ror, RMSE) 为 4.1713， 模 型 参数 量 、 计 算 量 (Floating Point Operations, FLOPs) 和 模型 大 小 分 别 为 5.01 M, 
36.44 G 和 70.20 MB, ， 展 现 出 较 对 比 模型 更 优 的 挂果 量 估 测 性 能 和 更 低 的 模型 复杂 度 。[ 结 论 ] 试验 结果 证 明了 本 


研究 所 建 模型 在 边缘 计算 设备 上 对 柑橘 挂果 量 估 测 的 有 效 性 ， 基 于 算法 模型 研发 的 果园 挂果 量 远程 监测 系统 可 满 
足 用 于 果园 移动 平台 行进 状态 下 的 果树 挂果 量 估 测 需求 。 本 人 研究 可 为 果园 生产 力 自动 监测 分 析 提 供 技术 支持 。 
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1 引 Ë 


果树 挂果 量 是 评价 果园 生产 力 的 重要 指标 ， 可 
使 农户 更 精确 地 掌握 果园 生产 情况 ， 合 理 安 排 栽 培 
管理 、 果 实 采 收 、 储 存 和 销售 等 活动 "“。 估 测 树 上 
挂果 量 的 传统 方法 主要 依赖 人 工 完成 ， 如 随机 抽取 
国定 百分比 (5% 或 10%) 的 果树 并 进行 果实 计数 ， 
据 此 推断 整个 果园 的 果实 数量 。 然 而 ， 这 种 长 时 间 
抽样 和 户外 工作 不 仅 费时 费力 ， 而 且 容 易 因 大 脑 疲 
劳 或 其 他 干扰 而 产生 计数 错误 。 因 此 ， 自 动 估 测 果 
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树 挂果 量 对 果园 生产 至 关 重 要 。 机 顺 视觉 作为 人 工 
智能 应 用 的 重要 领域 ， 因 其 低 成 本 、 高 效率 的 优 
点 ， 已 广泛 应 用 于 智慧 果园 相关 研究 。 

早期 的 果树 挂果 量 佑 测 研究 多 关注 于 传统 基于 
手工 特征 的 图 像 处 理 方法 ， 如 纹理 特征 “”、 颜 色 
特征 “”、 形 状 特征 “7” 等 。 近 年 来 ， 深 度 学 习 技 
术 在 果树 挂果 量 估 测 方面 得 到 广泛 研究 。Sa 等 ™ 
在 研究 中 较 早 尝试 了 利用 深度 学 习 的 果实 检测 来 估 
测 果树 挂果 量 。Chen 等 ”通过 全 卷 积 网 络 提取 候 
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选 blob， 并 使 用 与 卷 积 神经 网 络 相 关 的 回归 模型 来 
实现 每 个 blob 区 域 果 实数 量 的 估 测 。Bargoti 和 Un- 
derwood | 提出 了 一 种 基于 Faster RCNN 和 迁移 学 
习 的 架构 来 估计 挂果 量 的 方法 。Hiini 等 "人 研发 了 
一 种 结合 U-Net 与 Faster RONN 的 端 到 端 系统 ， 可 
从 苹果 簇 中 估计 果实 数量 ,准确 率 达 到 0.978。 李 
志 军 等 ' 利用 YOLOv5 检测 图 像 中 的 人 苹果， 并 结 
合 产 量 拟 合 网 络 实现 了 果树 产量 的 预测 。Kestur 
等 专门 设计 了 一 种 MangoNet 模 型 ,实现 芒果 挂 
果 量 估 测 。 

然而 ， 现 有 方法 大 多 基于 静态 图 像 来 实现 挂果 
量 估 测 ， 无 法 完成 对 视频 中 果树 挂果 量 的 动态 估 测 
任务 。 为 解决 上 述 难题 ， 基 于 检测 的 跟踪 (Track- 
ing by Detection, TBD) 方法 开始 被 一 些 学 者 引入 
到 佑 测 视 频 中 果树 挂果 量 的 研究 任务 中 。 高 芳 芳 
等 趾 提 出 基于 YOLOv4-tiny 和 卡尔 曼 滤 波 跟踪 的 
方法 ， 实 现 了 视频 中 富士 苹果 的 检测 和 计数 。 类 似 
地 ，Wang 等 ' 利用 卡尔 曼 滤波 器 对 芒果 目标 进行 
运动 跟踪， 实现 了 视频 中 芒果 数量 的 估 测 。TBD 类 
方法 采用 了 两 阶段 策略 ， 即 先 用 检测 模型 完成 目标 
检测 ， 然 后 将 输出 的 检测 结果 送 入 另 一 个 模型 ， 利 
用 数据 关联 算法 完成 多 目标 跟踪 ， 因 此 会 导致 算法 
效率 偏 低 、 处 理 速 度 较 慢 “7 等 问题 ， 而 且 算 法 
大 多 只 能 在 高 性 能 图 形 工 作 站 上 和 运行， 在 实际 果园 
生产 中 难以 适用 于 硬件 资源 有 限 的 边缘 计算 设备 。 

随 着 多 目标 跟踪 技术 的 快速 发 展 ， 基 于 联合 检 
ill IBEX A (Joint Detection and Embedding, JDE) 
的 方法 逐渐 成 为 主流 。JDE 类 方法 采用 端 对 端的 单 
阶段 策略 ， 将 检测 和 跟踪 整合 到 一 个 框架 中 同时 实 
现 目 标 检测 任务 和 身份 重 识别 (ReID) 任务 ， 避 人 免 
了 多 阶段 处 理 的 算法 复杂 性 "中 。Zhang 等 "基于 
CenterNet 和 JDE 提 出 了 FairMOT 框 架 ， 在 目标 跟 
踪 阶 段 同 时 考虑 目标 位 置 及 其 ReID 特征， 通过 共 
享 大 量 计算 来 减少 模型 推理 时 间 。Zhang 等 ”提出 
的 ByteTrack 算 法 ， 在 考虑 高 置信 度 检 测 框 的 同时 ， 
也 将 低 置 信和 度 检测 框 加 到 匹配 过 程 中 来 挖掘 更 多 真 
实 目标 ， 带 来 了 推理 精度 与 速度 两 方面 的 提升 。 然 
而 ， 该 方法 的 关联 匹配 仅 采 用 了 运动 估计 策略 ， 并 
未 引入 身份 重 识别 策略 来 计算 相似 度 7 

为 实现 果园 工 况 条 件 下 果树 挂果 量 的 自动 佑 


测 ， 本 研究 以 树 上 柑橘 为 对 象 ， 研 究 用 于 边缘 计算 
设备 的 树 上 树 橘 挂果 量 佑 测 模型 。 研 究 主要 贡献 包 
括 : (1) 采用 具有 轻 量 化 特点 的 CSPDarkNet53+ 
PAFPN 结构 作为 模型 特征 提取 网 络 ， 保 证 特征 表征 
能 力 的 同时 实现 更 快 的 推理 速度 和 更 低 的 模型 复杂 
RE; (2) 在 果实 目标 跟踪 阶段 ， 引 入 Byte 算法 改进 
FairMOT 的 数据 关联 策略 ， 设 计 果 实 多 目标 跟踪 模 
块 ， 对 柑橘 果实 进行 预测 跟踪 ， 提 高 挂果 量 估 测 准 
确 性 ; (3) 研发 果园 挂果 量 远 程 监测 系统 ， 将 算法 
模型 符 入 监测 系统 ， 实 现 果 树 挂果 量 的 自动 估 测 。 


2 试验 数据 采集 与 处 理 


2.1 数据 采集 


试验 果园 位 于 广西 壮族 自治 区 南宁 市 江南 区 那 
BAT 〈108*06'E，22*79'N) ， 以 此 处 种 植 的 沃 柑 为 
研究 对 象 ， 于 2019 年 11 月 下 名 采集 了 柑橘 视频 图 
像 数据 。 柑 橘 园 种 植 环 境 如 图 1 (a) 所 示 。 研 究 人 
员 手 持 智能 手机 沿 果树 树 行 移动 进行 拍摄 ， 手 机 摄 
像 头 距离 树 行 0.5~1.0 mm， 试验 数据 的 采集 在 晴朗 
及 多 云天 气 下 完成 ， 采 集 时 段 为 8 : 00 一 18 : 00, 
确保 获取 的 数据 涵盖 不 同 的 光照 情况 。 

采集 果园 中 不 同行 的 果树 视频 40 个 ， 保 存 为 
*.mp4 格 式 ， 分 辩 率 像素 为 1080X1920， 视 频 帧 率 
为 24 帧 8。 采集 柑橘 视频 的 图 像样 例如 图 1 (b) 
所 示 。 


E- 


(b) 柑 橘 视频 图 像样 例 


(a) RES Te TELE E 
图 1 广西 壮族 自治 区 南宁 市 江南 区 柑橘 果园 
Fig. 1 Citrus orchard in Jiangnan district, Nanning city, 


Guangxi Zhuang autonomous region 
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2.2 数据 集 构建 


根据 试验 需求 ， 从 采集 的 果树 视频 中 随机 选择 
30 个 视频 用 于 模型 训练 ， 其 余 10 个 视频 作为 挂果 
量 测试 视频 。 为 了 能 够 标注 出 视频 中 果实 的 真实 数 
量 (Ground truth)， 从 视频 数据 中 抽取 图 片 数据 ， 
间隔 为 每 30 帧 抽取 1 幅 图 像 ， 共 获得 用 于 模型 训练 
的 柑橘 树 图 像 2846 幅 。 对 图 像 序列 中 的 果实 位 置 
和 重复 果实 进行 标注 。 首 先 ， 使 用 自行 开发 的 坐标 
标注 工具 (图 2 (a) ) 进行 果实 最 小 外 接 和 矩形 框 的 
标注 ， 记 录 每 张 图 像 中 标注 果实 边界 框 的 四 个 角 点 
坐标 ; 其 次 ， 使 用 自行 开发 的 果实 配对 标注 工具 标 
注 相 邻 图 像 中 的 重复 果实 (图 2 (b) )， 记 录 果 实 
的 序号 ， 其 中 相同 果实 拥有 相同 的 序号 ， 最 终 形成 
标准 可 用 的 数据 集 。 


(b) 果 实 配 对 标注 工具 
图 2 果实 标注 工具 


Fig. 2 Fruit labeling tools 


3 轻 量化 果树 挂果 量 估 测 模型 


3.1 算法 总 体 思 路 


在 柑橘 园 复 杂 场 景 下 ， 校 叶 和 果实 之 间 容 易 产 
生 泪 挡 ， 这 给 树 上 柑橘 挂果 量 的 估 测 带 来 一 定 挑 
战 。 现 有 目标 跟踪 方法 大 多 采用 基于 销 框 的 目标 检 
测 "法 ， 如 果 目 标 实际 中 心 位 置 与 其 检测 产生 的 锚 
框 中 心 有 偏差 .那么 在 锚 点 提取 的 身份 特征 有 可 能 
无 法 与 目标 对 象 中 心 对 齐 ， 导 致 跟踪 精度 降低 。 为 
了 缓解 对 齐 的 问题 ， 无 销 框 检测 的 多 目标 跟踪 模 
型 ”被 设计 出 来 ,不 仅 可 以 减少 锚 框 对 身份 重 识 
别 (ReID) 的 影响 ， 同 时 也 能 优化 目标 检测 的 推理 
速度 。 

基于 上 述 分 析 ， 本 研究 借鉴 FairMOT 的 思路 ， 
采用 目标 检测 分 支 与 身份 谋 入 分支 的 并 行 结构 来 设 
计 果 树 挂果 量 估 测 模型 。 利 用 无 锚 框 策略 来 生成 检 
测 目标 的 相应 边界 框 ， 能 够 尽 可 能 避免 锚 框 策略 产 
生 的 政 义 问题 ， 有 利于 身份 谋 入 特征 更 好 对 齐 检测 
目标 的 中 心 位 置 。 

本 研究 所 提 算 法 的 总 体 思 路 如 下 : (1) 检测 视 
频 图 像 中 的 果实 并 提取 果实 ReID 特征 。 采 用 轻 量 
化 的 网 络 结构 CSPDarknet53+PAFPN 用 于 提取 特征 
图 ， 之 后 特征 图 会 被 分 别 送 到 两 个 并 行 分 支 ， 一 个 
分 支 用 来 预测 目标 位 置信 息 ， 另 一 个 分 支 用 来 识别 
目标 ReID 特征 ; (2) 果实 跟踪 与 挂果 量 计算 。 在 
果实 跟踪 阶段 引入 Byte 算 法 7", ZEA wi] ARSCH 
标 位 置信 息 及 其 身份 特征 进行 果实 运动 轨迹 预测 和 
吴 份 特征 相似 度 匹 配 ， 对 树 上 柑橘 目标 进行 时 序 联 
结 ， 统 计 果 实 跟踪 持续 帧 数 大 于 5 帧 的 果实 ID 数量 
作为 视频 中 树 上 柑橘 的 挂果 量 ， 最 后 输出 果树 挂果 
量 估 测 结果 。 模 型 的 算法 处 理 流程 如 图 3 所 示 。 


3.2 柑橘 果实 检测 与 RelD 特征 提取 


本 研究 所 建 模 型 中 果实 检测 与 ReID 特征 提取 
网 络 的 结构 如 图 4 所 示 。 包 括 主干 网 络 (Back- 
bone) 部 分 、Neck 部 分 和 预测 头 分 文部 分 。 

CSPDarknet53 是 以 Darknet53 ^ 为 基础 ， 借 鉴 
跨 阶 段 局 部 网 络 CSPNet (Cross Stage Partial Net- 
work) 的 思想 ^U 形成 的 新 网 络 ， 解 决 了 网 络 反 向 
优化 引起 的 梯度 信息 元 余 问 题 ， 有 效 减 少 了 网 络 参 
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输入 视频 


特征 提取 


(CSPDarknets3+PAFPN) 


r 
目标 检测 分 支 | 
L 


1 
ETE 
T 


开始 果实 目标 跟踪 


(Byte 数 据 关联 算法 ) 


身份 特征 余弦 距离 


果实 目标 位 置信 息 
4 

| saci 

I J 


i 
果实 目标 时 序 联结 
g | 
统计 挂果 葬 
i 
输出 结果 


图 3 果树 挂果 量 估 测 算法 处 理 流程 图 


帧 问 目标 身份 特征 
Hout 


Fig. 3 Flow chart of algorithm processing for fruit load 
estimation 
数 和 计算 量 C0". $e EAE R) CSPDarknet53 xj fii 
件 计算 资源 的 消耗 较 少 ， 适 合 图 像 处 理 资源 相对 有 
限 的 边缘 计算 设备 。 因 此 ,采用 CSPDarknet53 
作为 模型 的 主干 网 络 来 实现 特征 提取 。 

PAFPN 由 特征 人 金字塔 (Feature Pyramid Net- 
work, FPN) ^" 和 路 径 聚 合 网 络 (Path Aggregation 
Network, PAN) ^" 组成， 通过 构建 多 尺寸 的 特征 
金字 塔 结构 ， 将 骨干 网 络 提取 的 深层 特征 与 浅 层 特 
征 逐 元 素 融 合 ， 充 分 利用 低层 特征 的 高 分 辨 率 和 高 
层 特征 的 高 语义 信息 ， 以 获取 更 加 丰富 的 特征 信 
息 ””。 因 此 ， 在 模型 骨干 网 络 后 的 Neck 部 分 接 入 
PAFPN 特征 金字 塔 网 络 ， 利 用 低层 和 高 层 特征 之 间 


的 跳跃 连接 实现 特征 有 效 融 合 

经 过 融合 后 的 本 征 会 分 别 送 和 果实 检测 分 支 
(Detection branch) PRX Ef fj) HX. (Identity em- 
bedding branch) 分 支 。 果 实 检 测 分 文 包括 三 个 预测 
头 ， 每 个 预测 头 都 对 PAFPN 网 络 输出 的 特征 图 进 
行 3X3 卷 积 和 1X1 卷 积 ， 分 别 得 到 估计 柑橘 的 中 
心 热 图 (Keypoint Heat Map)， 中 心 偏 移 量 (Local 
Offset) 和 边界 框 尺 寸 (Object Size)， 如 图 5 所 示 。 
果实 身份 舱 入 分 支 负责 区 分 不 同 果 实 身 份 重 识别 
(ReID) 特征 ， 网 络 设计 中 将 卷 积 核 的 通道 数 由 
128 个 调整 为 64 个 ， 以 减少 推理 计算 时 间 ， 降 低 训 
练 过 拟 合 的 风险 ， 利 用 卷 积 核 提 取 输 入 特征 网 上 的 
ReID 特征 ， 产 生 身 份 岩 入 图 Een" 7", Rp wf 
五 分 别 表示 特征 图 的 宽 和 高 ， 目 标 中 心 (x, y) 处 
提取 的 身份 (ReID) 特征 为 已 en". 


3 融合 Byte 数 据 关联 算法 的 柑橘 果实 跟踪 


数据 关联 是 多 目标 跟踪 的 关键 环节 。 现 有 目标 
跟踪 模型 的 数据 关联 大 多 是 基于 高 分 检测 框 (检测 
框 得 分 高 于 设 定 阔 值 ) 匹配 的 策略 ， 未 考虑 低 分 检 
测 框 〈 检 测 框 得 分 低 于 设 定 阔 值 ) 目标 。 获 得 低 分 
的 检测 框 目 标 往往 是 由 于 遗 挡 或 运动 模糊 等 因素 造 
成 ， 若 直接 将 低 分 检测 框 舍 弃 ， 容 易 使 一 些 遮挡 严 
重 的 跟踪 目标 丢失 轨迹 ， 引 起 频繁 身份 (ID). 切换 
问题 。 倘 若 果 实 跟踪 过 程 中 同时 考虑 高 分 检测 框 和 
低 分 检测 框 来 关联 轨迹 ， 将 低 分 检测 框 利用 起 来 ， 
有 利于 提高 目标 轨迹 连贯 性 。 因 此 ， 本 研究 引入 
ByteTrack 模型 °° 中 的 Byte 数 据 关 联 算 法 ， 同 时 考 
J& ReID 特征 和 位 置 关 联 来 设计 柑橘 果实 跟踪 模块 。 
将 柑橘 果实 检测 结果 作为 跟踪 模块 的 输入 ， 对 检测 


2. Backbone 
(CSPDarknet53) 


3. Neck [ aunean | 4-1. Detection branch 
{PAFPN) 


Keypoint beatmap 


A- 


Objec 


4-2. Identity embedding 
branch 


f ReiD 
| 


图 4 柑橘 果实 检测 与 ReID 特征 提取 网 络 结构 图 


Fig. 4 Structure diagram of citrus fruit detection and ReID feature extraction network 
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(c) RAE RA 


(b) 中 心 偏 移 量 
图 5 柑橘 果实 检测 分 支 得 到 的 中 心 热 图 中 心 偏 移 量 和 边界 
框 尺 寸 示意 图 


Fig. 5 Schematics of the keypoint heat map ,local offset and ob- 


ject size from the citrus fruit detection branch 


结果 进行 高 分 检测 框 和 低 分 检测 框 的 区 分 ， 并 将 检 
测 框 位 置信 息 与 ReID 信息 结合 ， 形 成 融合 特征 ， 
采用 Byte 数 据 关联 匹配 策略 ， 获 得 连续 视频 帧 中 果 
实 目标 的 轨迹 ， 最 后 输出 柑橘 果实 跟踪 结果 。 果 实 
跟踪 的 流程 如 图 6 所 示 。 

柑橘 果实 跟踪 具体 步骤 如 下 

(1) 设 7 为 输入 果树 视频 ，Det 为 果实 检测 器 ， 
KF 为 卡尔 曼 滤波 器 。7 为 视频 的 轨迹 栈 ， 其 中 每 条 
轨迹 包括 果实 目标 的 检测 框 信息 和 身份 信息 。 设 定 
SAL Tagg Toy Fle, SEH Tuy AT, 9 FUE RI 


目标 检测 框 及 
HASIE 


LONE TT TT: 


high 


IEA PEER AM 


iw 


置信 度 疼 值 判断 


E 


BAERE, eJ HERRER mIa E BE o 

(2) ITA FB il at Det 产 生 的 检测 框 和 置 
信和 度 ， 检 测 置 信 度 高 于 阔 值 Ti 的 归 类 为 Pi，Dim 
包含 高 于 闪 值 Ts 的 检测 框 的 位 置 及 其 ReID 特征 信 
息 ; 检测 置信 和 度 高 于 阔 值 站 ,的 归 类 为 Du， 包 含 高 
于 阔 值 Ts, 的 检测 框 的 位 置信 息 及 其 ReID 特征 
信息 。 

(3) 对 于 轨迹 栈 7 中 的 轨迹 ， 利 用 卡尔 曼 滤波 
器 KF 预 测 其 在 当前 帧 中 的 坐标 。 

(4) 将 Dis 与 轨迹 栈 7 中 所 有 的 轨迹 进行 第 一 
次 关联 ， 借 助 检测 框 之 间 的 交 并 比 (Intersection 
Over Union, IOU) 和 身份 特征 ， 获 得 Di 检测 框 
与 滤波 预测 的 检测 框 之 间 的 相似 度 ， 利 用 匈牙利 算 
法 完成 匹配 。 未 匹配 成 功 的 检测 框 ， 存 人 DD, 
栈 ， 未 匹配 成 功 的 轨迹 ， 存 人 Ts 堆栈 。 

(5) 将 低 置 信和 度 的 检测 框 DD,, 与 轨迹 7 进行 
第 二 次 关联 ， 其 匹配 方法 与 第 一 次 匹配 的 方法 相 
同 。 对 于 未 匹配 成 功 的 轨迹 在 入 Ts， 同 时 ， 直 
接 删 除 未 匹配 成 功 的 低 置 信 度 检测 框 ， 不 存 人 
De 堆栈。 

(6) 对 于 Ts 中 的 轨迹 ， 视 为 暂时 丢失 了 目 
标 ， 但 7 中 的 轨迹 仍 会 保留 在 轨迹 栈 T 中 。 如 
KE 7 中 轨迹 后 期 匹配 成 功 或 是 存在 超过 30 帧 ， 


卡尔 曼 滤 波 器 KF 


预测 轨迹 新 位 置 | | 。 输出 轨迹 集合 


Duah 与 轨迹 本 了 
实施 第 一 次 关联 
| i 1 
未 匹 孔 的 轨迹 未 匹配 的 检测 杠 
TOT, FAD renin 


| 轨迹 Te 与 Du 


实施 第 二 次 关联 


未 匹配 的 
轨迹 存 入 
Tre romain 


4 
轨迹 与 检 
测 框 匹配 


L 
未 匹配 的 
检测 框 直 
em 


N 


轨迹 与 检测 框 。| | RURGOEHONAT Mee egal 
pit 更 新 轨迹 AR 


初始 化 为 新 轨迹 


不 做 处 理 


图 6 柑橘 果实 跟踪 流程 图 


Fig. 6 The flowchart for citrus fruit tracking 
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则 从 Ta 和 了 中 删除 ， 否 则 继续 在 7 中 保存 。 

(7) 对 于 De 中 的 检测 框 ， 如 果 检 测 置 信 度 
高 于 e 且 存活 超过 两 帧 ， 则 初始 化 为 新 的 轨迹 ， 并 
存 人 轨迹 栈 7。 

(8) 对 于 视频 的 每 帧 图 像 ， 输 出 7 关于 当前 帧 
所 有 检测 且 跟 踪 到 的 果实 边界 框 和 对 应 的 ID。 

融合 Byte 数据 关联 算法 的 柑橘 果 实 跟踪 方法 不 
仅 在 跟踪 过 程 中 贡献 了 必要 的 果实 ReID 信息 ， 同 
时 考虑 了 高 分 检测 框 和 低 分 检测 框 的 信息 ， 有 利于 
保持 目标 跟踪 的 连贯 性 。 


3.4 损失 函数 


本 人 研究 所 提 方 法 采用 的 损失 函数 LL 由 Lu 
Lo 和 和 Lisis 的 加 权 和 获得 ， 即 公 式 (1) "ES (4): 
L 


heat — 


1 
We 


(1 - M, log (M, ), 
(1 - M, )' (M) log(1 - 1,), 
(1) 
其 中 ，M 为 预测 的 heatmap HME; M, JJ heat- 
map 的 真 值 ; N 是 图 中 目标 的 总 数量 , 个。 


Ly = Sjo 

其 中 ,8 和 s 分 别 指 目标 框 大 小 的 预测 值 与 真 
值 ; 3 和 6。 分别 指 Offset 中 心 点 偏差 的 预测 值 与 
真 值 。 


Lamy = - >, > L'(k log (p(k)) (3) 


HB, p(k) 888 kA P BS) FR ID 的 可 能 性 分 
布 ; L(K) 指 第 K 个 物体 真实 的 one-hot 编 码 。 


1d 1 
L Gus | Dus) | e” L identity | [Or | @,) 


(4) 
FOP, o 和 ow, 分 别 为 目标 检测 损失 和 身份 识 
别 损失 的 可 学 习 权重 参数 。 


3.5 试验 设置 


为 提高 模型 训练 效率 ， 试 验 中 采用 图 形 工作 站 
进行 模型 训练 。 用 于 模型 训练 的 硬件 环境 为 : Intel 
i7-10700 (2.90 GHz) CPU, NVIDIA GeForce RTX 
3080 (12 GB) GPU 和 32 GB RAM; 训练 用 的 软件 
环境 为 : Ubuntu 20.04 LTS OS, CUDA 11.6, Py- 


sags - 8], (2) 
1 1 


total T 2 ( e? 


thon 3.8 和 Pytorch 1.12 深度 学 习 框 架 。 训 练 好 的 模 
型 会 移植 到 NVIDIA Jetson AGX 边缘 计算 设备 上 进 
行 性 能 测试 。 柑 橘 果 实 检 测试 验 中 的 模型 训练 参数 
如 表 1 所 示 。 

表 1 柑橘 果实 检测 模型 训练 参数 


Table 1 Parameters for models training in citrus fruit detection 


experiment 
名 称 数值 
优化 器 Adam 
学 习 率 0.0005 
Batch size 8 
输入 图 像 像 素 尺 十 608 X 1088 
Num of workers 8 
ReID dim 64 
Max epoches 300 


3.6 试验 评价 指标 


对 于 果实 检测 试验 ， 使 用 准确 率 (Precision, 
P). KEX (Recall, R), 、 调 和 平均 数 (F, score, 
F) 来 评价 模型 目标 检测 性 能 ， 计 算 如 公式 (5) 一 
(7) 所 示 。 同 时 ,使 用 模型 大 小 、 参 数量 、 浮 点 运 
算数 计算 量 (Floating Point Operations, FLOPs) 来 
评价 模型 复杂 度 。 


TP 
Peu I (5) 
TP 
RSEN (6) 
2XPXR 
F, PIR (7) 


Hh, TP (True Positive) 为 检测 正确 的 柑橘 
数 ， 个 ; FP (False Positive) 为 误 检 测 为 柑橘 的 背 
景 目标 数 ， 个 ; FN (False Negative) 为 误 检 测 为 
背景 的 柑橘 数 ， 个 。 

对 于 果树 挂果 量 佑 测试 验 ， 使 用 平均 估 测 精度 
(Average Estimating Precision，AEP) 来 评价 算法 
对 视频 中 果树 挂果 量 的 估 测 精度 ， 计 算 如 公式 (8) 
所 示 。 

|S- G| 
E z ) - 

其 中 ，$ 表 示 算 法 估 测 的 柑橘 数 ， 个 ; G 表 示 
人 工 核实 的 柑橘 实际 数 ， 个 ; n, 是 用 于 测试 的 视频 


个 数 ， 个 。 


AEP 
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此 外 ,使 用 决定 系数 民 和 均 方 根 误差 (Root 
Mean Square Error, RMSE) 来 评价 算法 估 测 果实 
数量 与 人 工 测 得 果实 数量 的 比较 情况 。 决 定 系数 尺 
用 于 衡量 算法 估 测 果实 数量 和 人 工 测 得 果实 数量 之 
间 的 相关 程度 ， 数 值 越 大 表明 二 者 相关 性 越 好 ; 
RMSE 用 来 衡量 算法 估 测 果实 数量 和 人 工 测 得 果实 
数量 之 间 的 误差 ， 其 值 越 小 表明 误差 越 小 。 


4 试验 结果 与 分 析 


4.1 果实 目标 检测 试验 


4.1.1 不 同 模型 柑橘 果实 检测 性 能 对 比 

为 验证 本 研究 所 建 模型 的 有 效 性 ， 对 比试 验 中 
选择 原始 FairMOT 框 架 使 用 的 ResNet34、HRNet18 
作为 特征 提取 网 络 与 本 研究 采用 CSPDarkNet53+ 
PAFPN 作为 特征 提取 网 络 的 改进 FairMOT 模 型 进 
行 对 比 ， 并 且 增 加 Faster RONN 检测 模型 进行 更 为 
广泛 的 比较 ， 评 价 果 实 目标 检测 性 能 以 及 模型 复杂 
度 。 对 比试 验 在 相同 的 测试 数据 集 下 进行 ， 测 试 集 
包含 211 幅 柑 橘 树 图 像 。 果 实 检测 效果 如 图 7 所 示 。 
由 图 7 可 以 看 出 ， 相 较 于 采用 FairMOT (ResNet34) 
模型 、FairMOT (HRNet18) 模型 和 Faster RCNN 
模型 ， 本 研究 所 建 的 改进 FairMOT 模 型 可 以 更 好 地 
完成 图 像 中 柑橘 果实 的 检测 任务 。 

表 2 给 出 了 不 同 模型 果实 检测 性 能 的 定量 对 比 
结果 。 由 表 2 可 知 ， 采 用 本 研究 所 建 模型 的 CSP- 
DarkNet53+PAFPN 结构 ， 柑 橘 检测 的 准确 率 、 召 回 
AR. 、 调 和 平均 数 分 别 达到 83.6%, 89.296. 86.3%, 
性 能 均 优 于 采用 ResNet34 结 构 和 HRNet18 结 构 的 
同类 指标 。Faster RCNN 的 柑橘 检测 准确 率 、 召 回 
率 和 调和 平均 指数 分 别 为 65.1%、69.0% 和 67.0%, 
明显 低 于 所 建 模 型 的 同类 指标 。 试 验 结果 表明 ， 本 
研究 所 建 模 型 采用 的 CSPDarkNet53+PAFPN 结构 能 
够 更 好 地 检测 出 果实 位 置 ， 为 树 上 柑橘 挂果 量 估 测 
的 实现 奠定 基础 。 由 于 柑橘 树枝 叶 诚 密 ， 会 产生 果 
Sc T SL. ， 可 能 造成 算法 在 柑橘 检测 中 的 失误 ， 
但 视频 中 同一 果实 会 在 视频 的 多 个 图 像 帧 中 出 现 ， 
因此 在 某 一 帧 因 遮 挡 没 有 被 检测 到 的 果实 ， 可 以 在 
后 续 视频 帧 中 被 检测 到 ， 从 而 在 一 定 程度 上 避免 对 
果树 挂果 量 估 测 准确 性 的 影响 。 


(a)FairMOT (ResNet34) (b)FairMOT ( HRNet1 8) 
ye? PE 


(c)Faster RCNN ' (d) zki FairMOT 
图 7 不 同 模型 柑橘 果实 检测 效果 对 比 

Fig. 7 Comparison of citrus fruit detection effect of 

different models 


表 2 柑橘 果实 检测 性 能 对 比 


Table 2 Comparison of citrus fruit detection performance 


模型 框架 ”特征 提取 网 络 准确 率 /% 召回 率 /% 调和 平均 数 /% 
Faster RCNN ResNet34 65.1 69.0 67.0 
ResNet34 83.5 86.2 84.8 
FairMOT 
HRNet18 83.1 89.1 86.0 
" " CSPDark- 
改进 FairMOT NetS3+PAFPN 83.6 89.2 86.3 


4.1.2 ”模型 复杂 度 对 比 

表 3 展示 了 不 同 模型 的 复杂 度 对 比 结果 。 由 
表 3 可 知 ， 采 用 本 研究 引入 的 CSPDarkNet53+PAF- 
PN 结构 后 ， 模 型 参数 量 仅 为 采用 ResNet34 结 构 的 
20.19% 和 采用 HRNet 结 构 的 41.51%， 在 FLOPs it 
算 量 方面 比 采 用 ResNet34 结 构 和 HRNet18 结构 分 
别 少 78.31% 和 87.63%， 在 模型 大 小 方面 仅 为 采用 
ResNet34 结构 和 采用 HRNetl8 结构 的 23.96% 和 
45.00%; 5j Faster RCNN 相 比 ， 本 研究 所 建 模 型 在 
参数 量 、FLOPs 和 模型 大 小 等 指标 方面 均 具 有 明显 
优势 。 较 低 的 模型 复杂 度 证 明 本 研究 所 采用 的 


ChinaXiv 合 作 期 刊 


202308.00179v1 


ChinaXiv 


CSPDarkNet53+PAFPN 结构 ， 对 人 硬件 计算 资源 有 限 
边缘 计算 设备 更 加 友好 ， 适 合 搭载 到 果园 移动 平 


台 完 成 高 效果 实 作 业 任务 。 


表 3 不 同 模型 的 复杂 度 对 比 


Table 3 Comparison of different models' complexities 


模型 框架 特征 提取 网 络 参数 量 /M FLOPs/G 模型 大 小 /MB 
Faster RCNN ResNet34 38.39 114.96 153.7 
ResNet34 24.82 168.00 293.0 
FairMOT 
HRNet18 12.07 294.62 156.0 
改进 FairMOT CSPDarkNetS3+PAFPN 5.01 36.44 70.2 


41.3 不 同 轻 量 主 干 网 络 的 消融 试验 
为 验证 CSPDarkNet53 主干 网 络 S e 以 及 
PAFPN 对 模型 精度 和 模型 大 小 的 影响 ， 进 一 步 开 展 


了 消融 实验 。 
CSPDarkNet53 进 


流 轻 量 网 络 EfficientNet-Lite 与 
了 J 了 比较， 试验 结果 如 表 4 所 示 。 


表 4 不 同 轻 量 主干 网 络 的 消融 试验 结果 
Table 4 Ablation results of different lightweight backbone networks 


主干 网 络 PAFPN 准确 率 /% 召回 率 /% 调和 平均 数 /% 参数 量 /M FLOPs/G 模型 大 小 /MB 
83.0 85.3 84.1 8.24 101.28 109.1 
EfficientNet-Lite 
y 83.2 86.6 84.9 8.29 101.96 109.8 
83.3 88.7 85.9 4.93 35.42 69.1 
CSPDarkNet53 
v 83.6 89.2 86.3 5.01 36.44 70.2 
由 表 4 可 知 ， 相 比 于 EfficientNet-Lite， 采 用 量 估 测 结果 。 果 园 挂 果 量 远程 监测 系统 运行 效果 如 


CSPDarkNet53 的 果实 检测 性 能 和 模型 复杂 度 均 表 
现 出 更 加 优秀 的 性 能 。 在 不 使 用 PAFPN 的 情况 下 ， 
采用 CSPDarkNet53 作为 主干 网 络 对 柑橘 检测 的 准 
确 率 、 召 回 率 、 调 和 平均 数 分 别 为 83.3%、88.7%、 
85.9%， 模 型 参数 量 、FLOPs 和 模型 大 小 分 别 为 
4.93 M、35.42 G 和 69.1 MB; 在 CSPDarkNet53 后 
使 用 了 PAFPN 的 柑橘 检测 准确 率 、 召 回 率 、 调 和 
平均 数 均 得 到 了 提升 ， 且 模型 大 小 基本 相同 ， 证 明 
了 使 用 PAFPN 对 于 模型 性 能 提升 具有 积极 的 影响 。 


4.2 果树 挂果 量 估 测试 验 


不 同 模型 挂果 量 估 测 性 能 对 比 
为 验证 本 研究 所 建 模 型 在 果树 挂果 量 佑 测 任务 
中 的 有 效 性 ， 同 时 便于 后 续 实 际 果 园 工 况 条 件 下 的 
应 用 ， 研 发 了 果园 挂果 量 远 程 监测 系统 ， 将 算法 模 
型 通 入 监测 系统 ， 实 现 有 果树 挂果 量 的 自动 估 测 。 其 
中 ， 集 成 了 挂果 量 信 测 模型 的 监测 系统 服务 端 部 轩 
在 边缘 计算 设备 上 ， 用 于 挂果 量 自动 估 测 ， 监 测 系 
统 监控 端 部 署 在 普通 电脑 中 ， 用 于 接收 和 显示 挂果 


4.2.1 


图 8 所 示 。 


PREO: 49 FPS: 14.52 


(a) IRA 3% (b) 监 控 端 
图 8 柑橘 果园 挂果 量 远 程 监测 系统 运行 图 


Fig. 8 Operation diagram of the fruit load remote monitoring 


system of citrus orchard 
试验 中 ， 随 机 选用 10 个 测试 视频 ， 包 含 10 棵 
柑橘 树 ， 视 频 中 人 工 核实 的 柑橘 实际 数 分 别 为 39、 
70. 125, 14, 81, 15, 47, 32, 27 fl 63 ^ , FIA 
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测试 视频 对 训练 得 到 的 模型 分 别 进行 挂果 量 估 测 ， 
评价 不 同 特征 提取 网 络 和 跟踪 策略 对 于 挂果 量 估 测 
的 精度 和 速度 性 能 ， 绪 果 如 表 5 所 示 。 

表 5 不 同 模型 的 挂果 量 估 测 性 能 对 比 


Table 5 Performance comparison of different models for fruit 


load estimation 


er 
模型 框架 ”特征 提取 网 络 ”跟踪 策略 AEP /% 
度 /(f.s 1!) 
改进 前 85.67 6.02 

ResNet34 
改进 后 86.98 6.05 

FairMOT 

改进 前 。 90.75 3.12 

HRNet18 
改进 后 91.53 3.14 
改进 前 85.76 14.48 

改进 FairMOT CSPDarkNet53+ 
PAFPN 改进 后 。 91.61 14.76 


由 表 5 可 以 看 出 ， 在 FairMOT 的 基础 上 融合 
Byte 算 法 得 到 的 改进 跟踪 策略 ， 对 于 提升 果实 挂果 
量 的 估 测 精度 产生 了 正面 效果 。 特 征 提 取 网 络 
ResNet34, HRNet18 和 CSPDarkNet53+PAFPN 再 结 
合 改进 后 的 跟踪 策略 所 得 模型 AEP 分 别 达 到 
86.9896, 91.53% 和 91.61%， 处 理 速度 分 别 达 到 
6.05、3.14 和 14.76 fs。 相 较 于 采用 ResNet34 结 构 
和 HRNet18 结构 ， 本 研究 所 建 模型 采用 的 CSP- 
DarkNet53+PAFPN 结构 结合 改进 后 的 果实 跟踪 策 
We. ， 表 现 出 了 更 优 的 挂果 量 估 测 性 能 ， 在 保持 较 高 
估 测 精度 的 同时 ， 处 理 速度 分 别 是 对 比 模型 的 2.4 
倍 和 4.7 倍 ,证 明了 本 研究 所 建 模型 在 边缘 计算 设 
备 上 对 柑橘 挂果 量 佑 测 的 有 效 性 。 

4.2.2 ”柑橘 挂果 量 估 测 定量 化 数值 拟 合 分 析 

为 进一步 分 析 所 建 模型 在 果树 挂果 量 估 测 中 的 
性 能 ， 对 挂果 量 算 法 估 测 值 与 人 工 测 得 真实 值 进行 
定量 化 数值 拟 合 分 析 。 图 9 展示 了 柑橘 挂果 量 佑 测 
数值 拟 合 结果 对 比 。 由 图 9 可 知 ， 本 研究 所 建 的 改 
进 FairMOT 模 型 测 得 挂果 量 与 人 工 测 得 真实 值 之 间 
的 RMSE 为 4.1713， 比 FairMOT (ResNet34) 和 
FairMOT (HRNet18) 分 别 低 47.61% 和 22.94%。 通 
过 观察 拟 合 结果 可 知 ， 本 研究 所 建 模型 测 得 结果 值 
与 人 工 测 得 真实 值 的 决定 系数 尼 为 0.9858， 优 于 其 
他 两 种 对 比 模型 ， 表 明 所 建 模型 对 视频 中 柑橘 挂果 
量 估 测 值 与 人 工 测 得 真实 值 具有 更 好 相关 性 。 


140 Y=0.9701x+4.4783 
R?=0.9775 
RMSE = 7.9624 


+ 
gg 100 
É om 
ze 
= 60 
2 40 
20 
L L 1 1 1 1 上 
0 20 40 60 80 100 120 140 
算法 估 测 值 /个 
(a)FairMOT (ResNet34) 
140 y= 1.0243x + 3.8058 


R! — 0.9780 
RMSE - 5.4129 


人 工 测 得 真实 值 /个 
z 


0 20 40 60 80 100 120 140 
算法 估 测 值 /个 
(b)FairMOT(HRNet18) 
140 y=0.9728x + 0.2301 


R? = 0.9858 e 
RMSE - 4.1713 


人 工 测 得 真实 值 /个 


0 20 40 60 80 100 120 140 
算法 估 测 值 /个 
(c) 改 进 FairMOT 


图 9 挂果 量 算法 估 测 值 与 人 工 测 得 真实 值 拟 合 结果 
Fig. 9 Fitting results of the fruit loads from algorithm estima- 


tion and the ground truth measured manually 
5 结 论 


为 实现 果园 工 况 条 件 下 果树 挂果 量 的 自动 估 
测 ， 本 研究 提出 一 种 用 于 边缘 计算 设备 的 轻 量 化 模 
型 ， 实 现 视 频 中 树 上 柑橘 挂果 量 的 自动 估 测 。 

(1) 模型 采用 CSPDarkNet53+PAFPN 结构 作为 
特征 提取 网 络 ， 在 保证 特征 表征 能 力 的 前 提 下 实现 
更 快 的 推理 速度 和 更 低 的 模型 复杂 度 ， 在 果实 跟踪 
阶段 引入 Byte 算法 改进 FairMOT 的 数据 关联 策略 ， 
对 视频 中 柑橘 果实 进行 预测 跟踪 ， 以 提升 挂果 量 佑 
测 准确 性 。 
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(2) 将 视频 数据 作为 输入 ， 利 用 模型 自动 估 测 
树 上 挂果 量 ， 本 研究 所 建 模型 的 平均 估 测 精度 
(AEP) 和 处 理 速 度 分 别 达 到 91.6196 和 14.76 f/s, 
测 得 结果 值 与 真实 值 的 决定 系数 RR 为 0.9858， 均 方 
根 误差 (RMSE) 为 41713， 模 型 参数 量 、FLOPs 
和 模型 大 小 分 别 为 5.01 M, 36.44 G 和 70.2MB， 展 
现 出 较 对 比 模型 更 优 的 挂果 量 估 测 性 能 和 更 低 的 模 
型 复杂 度 ,， 证 明了 本 研究 所 提 方 法 在 边缘 计算 设备 
上 对 柑橘 挂果 量 估 测 的 有 效 性 。 

(3) 基于 算法 模型 研发 的 果园 挂果 量 远 程 监测 
系统 ， 用 于 满足 果园 移动 平台 行进 状态 下 的 果树 挂 
果 量 监测 需求 ， 可 为 果树 生产 力 自 动 监 测 分 析 提 供 
技术 支持 ， 在 智慧 果园 生产 中 具有 良好 应 用 前 景 。 
未 来 研究 将 继续 丰富 数据 资源 ， 进 一 步 改进 模型 性 
能 ， 探 索 更 加 高 效 的 方法 以 满足 更 多 果树 品种 的 挂 
果 量 估 测 需求 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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A Lightweight Fruit Load Estimation Model for Edge 
Computing Equipment 


XIA Xue, CHAI Xiujuan', ZHANG Ning", ZHOU Shuo', SUN Qixin', SUN Tan” 


(1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences/Key Laboratory of Agricultural Big Data, Minis- 
try of Agriculture and Rural Affairs, Beijing 100081, China; 2. Chinese Academy of Agricultural Sciences, Beijing 100081, China) 


Abstract: 

[Objective] The fruit load estimation of fruit tree is essential for horticulture management. Traditional estimation method by manual 
sampling is not only labor-intensive and time-consuming but also prone to errors. Most existing models can not apply to edge comput- 
ing equipment with limited computing resources because of their high model complexity. This study aims to develop a lightweight 
model for edge computing equipment to estimate fruit load automatically in the orchard. 

[Methods] The experimental data were captured using the smartphone in the citrus orchard in Jiangnan district, Nanning city, 
Guangxi province. In the dataset, 30 videos were randomly selected for model training and other 10 for testing. The general idea of the 


proposed algorithm was divided into two parts: Detecting fruits and extracting ReID features of fruits in each image from the video, 
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then tracking fruit and estimating the fruit load. Specifically, the CSPDarknet53 network was used as the backbone of the model to 
achieve feature extraction as it consumes less hardware computing resources, which was suitable for edge computing equipment. The 
path aggregation feature pyramid network PAFPN was introduced as the neck part for the feature fusion via the jump connection be- 
tween the low-level and high-level features. The fused features from the PAFPN were fed into two parallel branches. One was the fruit 
detection branch and another was the identity embedding branch. The fruit detection branch consisted of three prediction heads, each 
of which performed 3x3 convolution and 1x1 convolution on the feature map output by the PAFPN to predict the fruit's keypoint heat 
map, local offset and bounding box size, respectively. The identity embedding branch distinguished between different fruit identity fea- 
tures. In the fruit tracking stage, the byte mechanism from the ByteTrack algorithm was introduced to improve the data association of 
the FairMOT method, enhancing the performance of fruit load estimation in the video. The Byte algorithm considered both high-score 
and low-score detection boxes to associate the fruit motion trajectory, then matches the identity features' similarity of fruits between 
frames. The number of fruit IDs whose tracking duration longer than five frames was counted as the amount of citrus fruit in the video. 
[Results and Discussions] All experiments were conducted on edge computing equipment. The fruit detection experiment was con- 
ducted under the same test dataset containing 211 citrus tree images. The experimental results showed that applying CSPDarkNet53+ 
PAFPN structure in the proposed model achieved a precision of 83.6%, recall of 89.2% and F, score of 86.3%, respectively, which 
were superior to the same indexes of FairMOT (ResNet34) model, FairMOT (HRNet18) model and Faster RCNN model. The CSP- 
DarkNet53+PAFPN structure adopted in the proposed model could better detect the fruits in the images, laying a foundation for esti- 
mating the amount of citrus fruit on trees. The model complexity experimental results showed that the number of parameters, FLOPs 
(Floating Point Operations) and size of the proposed model were 5.01 M, 36.44 G and 70.2 MB, respectively. The number of parame- 
ters for the proposed model was 20.19% of FairMOT (ResNet34) model's and 41.51% of FairMOT (HRNet18) model's. The FLOPs 
for the proposed model was 78.31% less than FairMOT (ResNet34) model's and 87.63% less than FairMOT (HRNet18) model's. The 
model size for the proposed model was 23.96% of FairMOT (ResNet34) model's and 45.00% of FairMOT (HRNet18) model's. Com- 
pared with the Faster RCNN, the model built in this study showed advantages in the number of parameters, FLOPs and model size. 
The low complexity proved that the proposed model was more friendly to edge computing equipment. Compared with the lightweight 
backbone network EfficientNet-Lite, the CSPDarkNet53 applied in the proposed model's backbone performed better fruit detection 
and model complexity. For fruit load estimation, the improved tracking strategy that integrated the Byte algorithm into the FairMOT 
positively boosted the estimation accuracy of fruit load. The experimental results on the test videos showed that the AEP (Average Es- 
timating Precision) and FPS (Frames Per Second) of the proposed model reached 91.61% and 14.76 f/s, which indicated that the pro- 
posed model could maintain high estimation accuracy while the FPS was 2.4 times and 4.7 times of the comparison models, respec- 
tively. The RMSE (Root Mean Square Error) of the proposed model was 4.1713, which was 47.61% less than FairMOT (ResNet34) 
model's and 22.94% less than FairMOT (HRNet18) model's. The R° of the determination coefficient between the algorithm-measured 
value and the manual counted value was 0.9858, which was superior to other comparison models. The proposed model revealed better 
performance in estimating fruit load and lower model complexity than other comparatives. 

[Conclusions] The experimental results proved the validity of the proposed model for fruit load estimation on edge computing equip- 
ment. This research could provide technical references for the automatic monitoring and analysis of orchard productivity. Future re- 
search will continue to enrich the data resources, further improve the model's performance, and explore more efficient methods to 


serve more fruit tree varieties. 
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